单样本 T 检验 - 快速教程与示例

作者：Ruben Geert van den Berg 在 Statistics A-Z & T-Tests 下发布

单样本 T 检验 (One-Sample T-Test) 评估一个总体均值是否可能为 x：某个假设值。

单样本 T 检验示例

一位学校校长认为他的学生由于智商 (IQ) 分数低而表现不佳。现在，大多数智商测试都经过校准，在一般人群中的平均值为 100 分。所以问题是：学生群体的平均智商分数是否为 100？现在，我们的学校有 1,114 名学生，并且智商测试的管理成本有些高。因此，我们的校长抽取了一个 N = 38 名学生的简单随机样本，并测试了他们的 4 个智商组成部分：

verb (Verbal Intelligence, 语言智力)
math (Mathematical Ability, 数学能力)
clas (Classification Skills, 分类技能)
logi (Logical Reasoning Skills, 逻辑推理技能)

因此收集的原始数据位于此 Google 表格中，部分内容如下所示。请注意，由于疾病和未知原因，缺少几个分数。

零假设 (Null Hypothesis)

我们将尝试通过拒绝零假设来证明我们的学生智商分数较低，即对于测量的 4 个智商组成部分的每一个，整个学生群体的平均智商分数为 100。我们面临的主要挑战是，我们只有来自 N = 1,114 的人口的 38 名学生的样本数据。但让我们首先看一下每个组成部分的一些描述性统计信息：

N - 样本大小 (sample size)
M - 样本均值 (sample mean)
SD - 样本标准差 (sample standard deviation)

描述性统计 (Descriptive Statistics)

我们的第一个基本结论是，我们的 38 名学生在所有 4 个智商组成部分的得分都低于 100 分。verb (99.29) 和 math (97.97) 的差异很小。clas (93.91) 和 logi (94.74) 的差异似乎更为严重。

现在，我们的 38 名学生的样本显然可能会得出与我们的 N = 1,114 的总体略有不同的均值。那么，关于我们的人口，我们能（不能）得出什么结论？我们将尝试使用 2 种不同的方法将这些样本结果推广到我们的人口：

统计显著性 (Statistical significance)：如果总体均值实际上都是 100 分，那么这些样本均值有多大可能性？
置信区间 (Confidence intervals)：给定样本结果，总体均值的可能范围是什么？

这两种方法都需要一些假设，因此让我们首先研究这些假设。

假设 (Assumptions)

我们的单样本 t 检验所需的假设是：

独立观察 (independent observations)：每个学生的测试结果互不影响。
正态性 (normality)：智商分数在整个人群中必须是正态分布 (normally distributed)。

我们的数据是否符合这些假设？首先，

1. 我们的学生在测试期间没有互动。因此，我们的观察结果很可能是独立的。

2. 只有在小样本量（例如 N < 25 左右）时才需要正态性。对于手头的数据，正态性不是问题。对于较小的样本量，您可以通过以下方式评估正态性假设：

检查直方图 (histograms) 是否大致遵循正态曲线，
检查偏度 (skewness) 和峰度 (kurtosis) 是否都接近 0，以及
运行 Shapiro-Wilk 检验 (Shapiro-Wilk test) 或 Kolmogorov-Smirnov 检验 (Kolmogorov-Smirnov test)。

但是，手头的数据满足所有假设，因此现在让我们研究实际的测试。

公式 (Formulas)

如果我们抽取许多学生的样本，这样的样本将得出不同的均值。我们可以计算假设样本中这些均值的标准差：均值的标准误差或 \(SE_{mean}\)

\[SE_{mean} = \frac{SD}{\sqrt{N}}\]

对于我们的第一个智商组成部分，这导致

\[SE_{mean} = \frac{12.45}{\sqrt{38}} = 2.02\]

我们的零假设是总体均值 \(_0 = 100\)。如果这是真的，那么平均样本均值也应该为 100。我们现在基本上计算样本均值的 z 分数：检验统计量 \(t\)

\[t = \frac{M - \mu_0}{SE_{mean}}\]

对于我们的第一个智商组成部分，这导致

\[t = \frac{99.29 - 100}{2.02} = -0.35\]

如果满足假设，\(t\) 遵循 t 分布，自由度或 \(df\) 由下式给出

\[df = N - 1\]

对于 38 名受访者的样本，这导致

\[df = 38 - 1 = 37\]

给定 \(t\) 和 \(df\)，我们可以简单地在此 Google 表格中查找双尾显著性水平 \(p\) = 0.73，部分内容如下所示。

解释 (Interpretation)

根据经验法则，如果 p < 0.05，我们拒绝零假设。我们刚刚发现 p = 0.73，因此我们不拒绝我们的零假设：给定我们的样本数据，总体均值为 100 是一个可信的陈述。

那么，p = 0.73 究竟意味着什么？好吧，这意味着 t < -0.35 或 t > 0.35 的概率为 0.73（或 73%）。下图说明了此概率如何从抽样分布 (sampling distribution) t(37) 得出。

接下来，请记住 t 只是一个标准化的平均差异。对于我们的数据，t = -0.35 对应于 -0.71 智商点的差异。因此，p = 0.73 意味着找到至少 0.71 点的绝对平均差异的概率为 0.73。粗略地说，如果我们，发现的样本均值很可能发生在零假设为真的情况下。

效应量 (Effect Size)

单样本 t 检验的唯一效应量测量 (effect size measure) 是 Cohen’s D，定义为

\[Cohen's\;D = \frac{M - \mu_0}{SD}\]

对于我们的第一个智商测试组成部分，这导致

\[Cohen's\;D = \frac{99.29 - 100}{12.45} = -0.06\]

一些一般约定是：

Cohen’s D | = 0.20 表示小效应量；
Cohen’s D | = 0.50 表示中等效应量；
Cohen’s D | = 0.80 表示大效应量。

这意味着对于我们的第一个测试组成部分，Cohen’s D = -0.06 表示可忽略不计的效应量。SPSS 中完全没有 Cohen’s D，除了 SPSS 27。JASP 可以轻松获得它。下面的 JASP 输出显示了所有 4 个智商测试组成部分的效应量。

请注意，最后 2 个智商组成部分 -clas 和 logi- 几乎具有中等效应量。这些也是均值与 100 显着不同的 2 个组成部分：两个均值的 p < 0.05（第三个表格列）。

均值的置信区间 (Confidence Intervals for Means)

我们的数据得出了我们 4 个智商测试组成部分的样本均值。现在，我们知道样本均值通常与其总体对应值略有不同。那么，我们想要的总体均值的可能范围是什么？这通常通过计算 95% 置信区间 (confidence intervals) 来回答。我们将演示最后一个智商组成部分（逻辑推理）的过程。

由于我们有 34 个观察值，因此 t 遵循自由度 df = 33 的 t 分布。我们将首先查找哪些 t 值从逆 t 分布中包含了最可能的 95%。我们将通过在 Google 表格的任何单元格中键入 =T.INV(0.025,33) 来执行此操作，该表格返回 -2.03。请注意，0.025 为 2.5%。这是因为 5% 的最不可能值分布在分布的两端，如下图所示。

现在，我们的 t 值 -2.03 估计我们的 95% 的样本均值在 ± 2.03 个标准误差之间波动，由 \(SE_{mean}\) 表示。对于我们的最后一个智商组成部分，

\[SE_{mean} = \frac{12.57}{\sqrt34} = 2.16 \]

我们现在知道，我们的 95% 的样本均值估计在 ± 2.03 · 2.16 = 4.39 个智商测试点之间波动。最后，我们将此波动与我们观察到的 94.74 的样本均值相结合：

\[CI_{95\%} = [94.74 - 4.39,94.74 + 4.39] = [90.35,99.12]\]

请注意，我们的 95% 置信区间不包含我们假设的 100 的总体均值。这意味着我们将在 α = 0.05 时拒绝此零假设。我们甚至不需要运行实际的 t 检验来得出此结论。

APA 格式报告 (APA Style Reporting)

单个 t 检验通常在文本中报告，如“语言技能的平均值与 100 没有差异，t(37) = -0.35, p = 0.73, Cohen’s D = 0.06。”对于多个测试，建议使用如下所示的简单概述表。我们认为还应包括均值的置信区间（不是均值差异）。由于 APA 没有提及这些，我们暂时将它们排除在外。

单样本 T 检验的 APA 格式报告表示例